我们介绍了445名人员和计算机生成的文件的新型语料库,包括约27,000个条款,用于语义条款类型和相干关系,允许人工和自然话语模式的细节比较。该语料库涵盖了正式和非正式的话语,并包含使用微调GPT-2生成的文件(Zellers等,2019)和GPT-3(棕色等,2020)。我们通过提供初步证据,展示该语料库的有用性,通过提供初步证据,以提供较少,更短,更频繁的通电话条款关系与计算机生成的叙述和论点的较低质量相关。
translated by 谷歌翻译
尽管最近的研究集中在量化单词用法上以找到叙事情感弧的整体形状,但叙事中叙事的某些特征仍有待探索。在这里,我们通过找到单词用法中波动开始相关的文本长度来表征亚叙事的叙事时间尺度。我们代表30,000多个项目Gutenberg书籍作为时间序列使用OusiOmetrics,这是一个具有基本含义的功率破坏者框架,本身是对价价 - 宽松义务框架的重新解释,这些框架源自语义差异。我们使用经验模式分解将每本书的力量和危险时间序列分解为组成振荡模式和非振荡趋势的总和。通过将原始力量和危险时间序列的分解与从洗牌文本中得出的分解,我们发现较短的书籍仅显示出一般趋势,而较长的书籍除了一般趋势外,还具有波动,类似于子图在一个中的弧线中的弧线。总体叙事弧。这些波动通常有几千个单词的时期,无论书籍长度或库分类代码如何,但根据书的内容和结构而有所不同。我们的方法提供了一种数据驱动的denoisising方法,可用于各种长度的文本,与使用大型窗口尺寸的更传统的方法相反,该方法可能会无意中平滑相关信息,尤其是对于较短的文本而言。
translated by 谷歌翻译
肥胖是一个重大的健康问题,增加了各种主要慢性病的风险,如糖尿病,癌症和中风。虽然通过横断面BMI录音识别的肥胖作用已经过分研究,但BMI轨迹的作用远远不大。在这项研究中,我们利用从大型和地理位置的EHR数据集中提取的BMI轨迹捕获大约200万个人的健康状况为期六年的健康状况。我们根据BMI轨迹定义九个新的可解释和基于证据的变量,以使用K-Means聚类方法将患者聚类为子组。我们在人口统计学,社会经济和生理测量变量方面彻底审查了每个集群特征,以指定簇中患者的不同性质。在我们的实验中,已被重新建立肥胖,高血压,阿尔茨海默和痴呆症的肥胖,高血压,阿尔茨海默氏症和痴呆症的直接关系,并且已经发现有几种慢性疾病的特异性特征的不同簇符合或与现有的知识体系互补。
translated by 谷歌翻译
超重和肥胖仍然是一个主要的全球性公共健康问题,并确定增加未来体重增加风险的个性化模式在预防肥胖症和许多与肥胖症相关的次螯症方面具有至关重要的作用。在这项工作中,我们使用规则发现方法来研究这个问题,通过呈现提供真正的解释性和同时优化所识别模式的准确性(经常正确)的准确性(适用于许多样本)的方法来研究这个问题。具体而言,我们扩展了一个已建立的子组 - 发现方法以生成类型X-> Y的所需规则,并显示如何从X侧提取最高特征,作为Y的最佳预测因子。在我们的肥胖问题中,X是指来自非常大的和多站点EHR数据的提取功能,y表示大量的重量。使用我们的方法,我们还广泛地比较了由个人性别,年龄,种族,保险类型,邻里类型和收入水平决定的22层模式中的模式中的差异和不平等。通过广泛的实验,我们对未来危险体重增加的预测变量显示出新的和互补结果。
translated by 谷歌翻译
情绪感知智能系统对于广泛的应用是必不可少的。这些系统由语言模型驱动,这主要落入两个范式:基于词汇和上下文。虽然最近的上下文模型越来越占主导地位,但由于它们的可解释性和易用性,我们仍然可以看到基于词汇的模型的需求。例如,基于词汇的模型允许研究人员容易地确定哪些单词和短语对测量情绪的变化有贡献。任何基于词汇的方法的挑战是,词典需要通过新的单词和表达进行常规扩展。在这里,我们提出了两个用于自动词典扩展的模型。我们的第一个模型建立了一种基线,采用简单而浅的神经网络,使用非上下文方法初始化了预先训练的单词嵌入。我们的第二种模式改进了我们的基线,具有深度变压器的网络,它带来了估计其词汇极性的单词定义。我们的评估表明,两种模型都能够以与亚马逊机械土耳其人的评论者相似的准确度,但是在成本的一小部分中,可以获得类似的准确性。
translated by 谷歌翻译